Di Luar Kata-Kata: Memahami Tokenisasi dan Uji Permen

Arsitektur Tersembunyi dari Bahasa

Model Bahasa Besar (LLM) tidak 'membaca' teks seperti manusia. Sementara kita melihat huruf dan kata-kata, model memproses informasi dalam bagian numerik yang disebut Token. Memahami abstraksi ini adalah langkah pertama menuju menguasai rekayasa prompt dan desain sistem.

Uji Permen

Mengapa LLM kesulitan membalikkan huruf-huruf dalam kata "lollipop" tetapi berhasil seketika saat diminta membalikkan "l-o-l-l-i-p-o-p"?

Masalahnya:Dalam kata standar, model hanya melihat satu token yang mewakili seluruh kata. Model tidak memiliki peta jelas tentang huruf-huruf individu di dalam token tersebut.
Solusinya:Dengan memisahkan kata menggunakan tanda hubung, Anda memaksa model untuk mengubah setiap huruf menjadi token terpisah, memberikan 'penglihatan' yang sangat detail yang diperlukan untuk menyelesaikan tugas ini.

Prinsip Utama

Rasio Token:Sebagai aturan umum, 1 token kira-kira setara dengan 4 karakter dalam bahasa Inggris, atau sekitar 0,75 dari sebuah kata.
Jendela Konteks:Model memiliki ukuran 'memori' tetap (misalnya, 4096 token). Batas ini mencakup instruksi Anda dan jawaban dari model.

Dasar vs. Disesuaikan dengan Instruksi

LLM Dasar:Memperkirakan kata berikutnya yang paling mungkin berdasarkan dataset besar (contoh: "Apa ibukota Prancis?" bisa diikuti oleh "Apa ibukota Jerman?").
LLM yang Disesuaikan dengan Instruksi:Disempurnakan melalui Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) agar dapat mengikuti perintah tertentu dan bertindak sebagai asisten.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?

A) 3,000 tokens

B) 750 tokens

C) 12,000 tokens

Question 2

Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?

A) It is faster at generating text.

B) It uses fewer tokens.

C) It is trained to follow specific tasks and dialogue formats.

Challenge: Token Estimation

Apply the token ratio rule to a real-world scenario.

You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.

Step 1

Estimate the number of tokens for a single daily report.

Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$

Step 2

Calculate the estimated cost to process one daily report.

Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$